我们研究神经网络表达能力的基本限制。给定两组$ f $,$ g $的实值函数,我们首先证明了$ f $中的功能的一般下限,可以在$ l^p(\ mu)$ norm中通过$ g中的功能近似$,对于任何$ p \ geq 1 $和任何概率度量$ \ mu $。下限取决于$ f $的包装数,$ f $的范围以及$ g $的脂肪震动尺寸。然后,我们实例化了$ g $对应于分段的馈电神经网络的情况,并详细描述了两组$ f $:h {\“ o} lder balls和多变量单调函数。除了匹配(已知或新的)上限与日志因素外,我们的下限还阐明了$ l^p $ Norm或SUP Norm中近似之间的相似性或差异,解决了Devore等人的开放问题(2021年))。我们的证明策略与SUP Norm案例不同,并使用了Mendelson(2002)的关键概率结果。
translated by 谷歌翻译
模型预测控制是为机器人生成复杂动作的强大工具。但是,它通常需要在线解决非凸问题以产生丰富的行为,这在计算上很昂贵,并且并非总是实时实用的。此外,通过当前状态空间方法,反馈回路中高维传感器数据(例如RGB-D图像)的直接集成具有挑战性。本文旨在解决这两个问题。它引入了模型预测控制方案,其中神经网络不断根据感官输入来更新二次程序的成本函数,旨在最大程度地减少一般的非凸任务丢失而不解决非convex问题在线。通过更新成本,机器人可以直接从传感器测量中适应环境的变化,而无需进行新的成本设计。此外,由于可以通过硬限制有效地解决二次​​程序,因此可以确保机器人安全部署。在工业机器人操纵器上进行了各种涉及任务的实验表明,我们的方法可以有效地解决具有高维视觉感觉输入的复杂的非凸问题,同时仍然对外部干扰保持稳定。
translated by 谷歌翻译
使用增强现实(AR)用于导航目的,这表明在手术手术过程中协助医生有益。这些应用通常需要知道外科手术工具和患者的姿势,以提供外科医生在任务执行过程中可以使用的视觉信息。现有的医学级跟踪系统使用放置在手术室内的红外摄像头(OR)来识别感兴趣的对象附加并计算其姿势的复古反射标记。一些市售的AR头式显示器(HMD)使用类似的摄像头进行自定位,手动跟踪和估算对象的深度。这项工作提出了一个使用AR HMD的内置摄像机来准确跟踪复古反射标记的框架,例如在手术过程中使用的标记,而无需集成任何其他组件。该框架还能够同时跟踪多个工具。我们的结果表明,横向翻译的准确度为0.09 +-0.06毫米,可以实现标记的跟踪和检测,纵向翻译的0.42 +-0.32 mm,绕垂直轴旋转的0.80 +-0.39 ver。此外,为了展示所提出的框架的相关性,我们在手术程序的背景下评估了系统的性能。该用例旨在在骨科过程中复制K-Wire插入的场景。为了进行评估,为两名外科医生和一名生物医学研究人员提供了视觉导航,每次都进行了21次注射。该用例的结果提供了与基于AR的导航程序报告的相当精度。
translated by 谷歌翻译
大型语言模型在各种任务上显示出令人印象深刻的几次结果。但是,当知识是此类结果的关键时,就像问题回答和事实检查之类的任务一样,似乎需要存储知识的大量参数计数。众所周知,检索增强模型可以在不需要多个参数的情况下在知识密集的任务上表现出色,但是目前尚不清楚它们是否在几个弹药设置中工作。在这项工作中,我们介绍了地图集,这是一个经过精心设计和预先训练的增强语言模型,能够通过很少的培训示例学习知识密集型任务。我们对包括MMLU,苏格兰短裙和归类等各种任务进行评估,并研究文档索引内容的影响,表明它可以很容易地进行更新。值得注意的是,在自然问题上仅使用64个示例在自然问题上达到超过42 \%的准确性,尽管参数少了50倍,但比540B参数模型的表现优于540b参数模型。
translated by 谷歌翻译
基于变压器的体系结构已在各种视觉域(最著名的图像和视频)中变得更具竞争力。虽然先前的工作已经孤立地研究了这些模式,但拥有一个共同的体系结构表明,人们可以训练单个统一模型以多种视觉方式。事先尝试进行统一建模通常使用针对视觉任务量身定制的体系结构,或与单个模态模型相比获得较差的性能。在这项工作中,我们表明可以使用蒙版的自动编码来在图像和视频上训练简单的视觉变压器,而无需任何标记的数据。该单个模型学习了与图像和视频基准上的单模式表示相当或更好的视觉表示,同时使用了更简单的体系结构。特别是,我们的单一预算模型可以进行审核,以在ImageNet上获得86.5%的速度,而在挑战性的事物V2视频基准测试中,可以实现75.3%的范围。此外,可以通过丢弃90%的图像和95%的视频补丁来学习该模型,从而实现非常快速的训练。
translated by 谷歌翻译
现在,人工智能(AI)可以自动解释医学图像以供临床使用。但是,AI在介入图像中的潜在用途(相对于参与分类或诊断的图像),例如在手术期间的指导,在很大程度上尚未开发。这是因为目前,使用现场分析对现场手术收集的数据进行了事后分析,这是因为手术AI系统具有基本和实际限制,包括道德考虑,费用,可扩展性,数据完整性以及缺乏地面真相。在这里,我们证明从人类模型中创建逼真的模拟图像是可行的替代方法,并与大规模的原位数据收集进行了补充。我们表明,对现实合成数据的训练AI图像分析模型,结合当代域的概括或适应技术,导致在实际数据上的模型与在精确匹配的真实数据训练集中训练的模型相当地执行的模型。由于从基于人类的模型尺度的合成生成培训数据,因此我们发现我们称为X射线图像分析的模型传输范式(我们称为Syntheex)甚至可以超越实际数据训练的模型,因为训练的有效性较大的数据集。我们证明了合成在三个临床任务上的潜力:髋关节图像分析,手术机器人工具检测和COVID-19肺病变分割。 Synthex提供了一个机会,可以极大地加速基于X射线药物的智能系统的概念,设计和评估。此外,模拟图像环境还提供了测试新颖仪器,设计互补手术方法的机会,并设想了改善结果,节省时间或减轻人为错误的新技术,从实时人类数据收集的道德和实际考虑方面摆脱了人为错误。
translated by 谷歌翻译
由于检测数据集的规模小,当前对象探测器的词汇量受到限制。另一方面,图像分类器的原因是大约更大的词汇表,因为他们的数据集更大,更容易收集。我们提出守则,只需在图像分类数据上培训检测器的分类器,从而扩展了探测器的词汇量到数万个概念。与现有工作不同,拒绝不会根据模型预测将图像标签分配给框,使其更容易实现和兼容一系列检测架构和骨架。我们的结果表明,即使没有箱子注释,否则差异也能产生出色的探测器。它优于开放词汇和长尾检测基准的事先工作。拒绝为所有类和8.3地图提供了2.4地图的增益,用于开放词汇LVIS基准测试中的新型类。在标准的LVIS基准测试中,守护者达到41.7地图所有课程和41.7地图以获得罕见课程。我们首次培训一个探测器,其中包含所有二十一千类的ImageNet数据集,并显示它在没有微调的情况下推广到新数据集。代码可在https://github.com/facebookresearch/dorm提供。
translated by 谷歌翻译
我们展示了如何通过基于关注的全球地图扩充任何卷积网络,以实现非本地推理。我们通过基于关注的聚合层替换为单个变压器块的最终平均池,重量贴片如何参与分类决策。我们使用2个参数(宽度和深度)使用简单的补丁卷积网络,使用简单的补丁的卷积网络插入学习的聚合层。与金字塔设计相比,该架构系列在所有层上维护输入补丁分辨率。它在准确性和复杂性之间产生了令人惊讶的竞争权衡,特别是在记忆消耗方面,如我们在各种计算机视觉任务所示:对象分类,图像分割和检测的实验所示。
translated by 谷歌翻译
信息检索是自然语言处理中的重要组成部分,用于知识密集型任务,如问题应答和事实检查。最近,信息检索已经看到基于神经网络的密集检索器的出现,作为基于术语频率的典型稀疏方法的替代方案。这些模型在数据集和任务中获得了最先进的结果,其中提供了大型训练集。但是,它们不会很好地转移到没有培训数据的新域或应用程序,并且通常因未经监督的术语 - 频率方法(例如BM25)的术语频率方法而言。因此,自然问题是如果没有监督,是否有可能训练密集的索取。在这项工作中,我们探讨了对比学习的限制,作为培训无人监督的密集检索的一种方式,并表明它导致强烈的检索性能。更确切地说,我们在15个数据集中出现了我们的模型胜过BM25的Beir基准测试。此外,当有几千例的示例可用时,我们显示微调我们的模型,与BM25相比,这些模型导致强大的改进。最后,当在MS-Marco数据集上微调之前用作预训练时,我们的技术在Beir基准上获得最先进的结果。
translated by 谷歌翻译
生成网络正在LHC的快速事件生成中打开新的途径。我们展示了生成的流量网络如何达到运动分布的百分比精度,如何与鉴别器共同培训,以及该鉴别者如何提高生成。我们的联合培训依赖于两种网络的新耦合,这些网络不需要纳什均衡。然后,我们通过贝叶斯网络设置和通过条件数据增强来估计生成的不确定性,而鉴别者确保与培训数据相比没有系统不一致。
translated by 谷歌翻译